在低资源方案中的手写文本识别(例如具有稀有字母的手稿)是一个具有挑战性的问题。主要困难来自很少的注释数据和有限的语言信息(例如词典和语言模型)。因此,我们提出了一些基于学习的手写识别方法,该方法大大降低了人类劳动注释过程,只需要每个字母符号的图像很少。该方法包括检测文本图像中给定字母的所有符号,并解码获得的相似性得分与转录符号的最终顺序。我们的模型首先是在与目标域不同的任何字母内生成的合成线图像上预估计的。然后应用第二个训练步骤以减少源数据和目标数据之间的差距。由于这种重新训练将需要数千个手写符号以及其边界框的注释,因此我们建议通过无监督的渐进学习方法避免这种人类的努力,从而自动将伪标签分配给非宣布数据。对不同手稿数据集的评估表明,我们的模型可以导致竞争成果,而人类努力大大减少。该代码将在此存储库中公开可用:\ url {https://github.com/dali92002/htrbymatching}
translated by 谷歌翻译